KI im Jahre 2023

Was ist das, was kann es, was kann es nicht?

Prof. Oliver Dürr, Prof. Georg Umlauf und ChatGPT

Überblick

  • Einordnung

    • Deep Learning vs. Künstliche Intelligenz
  • Prinzipielle Funktionsweise von neuronalen Netzen

    • Einfache NN im Detail

    • Training von NN

  • Grenzen der KI / prinzipbedingte Schwächen

Vorbemerkung

Der kluge Hans

Tauben in der Tumorerkennung

10 Tauben so gut wie ein Pathologe: youtube

KI (AI), Machine Learning, Deep Learning

Deep Learning ist der Treiber der jetzigen KI Welle (von 2012) an.

Anwendungen der (schachen) KI

Neuronale Netze

Alle NN bestehen aus Neuronen…

…Mache haben aber mehr Neuronen als andere.

Beispiele für Neuronale Netze

Beispiel: ChatGPT

  • Architektur: “Language Model”

    • Input: X Sequenz (bis zu 8000 Wörter1)

    • Output: Y Nächstes Wort (W’keiten)

  • Typisches Netz 2020 GPT-3 175’000’000’000 Parameter (Neuronen)

Beispiel: Alexnet

  • Architektur: Bild Klassifikation

    • Input X Bild z.B. 1024x1024 Pixel

    • Output Y Klasse Label (eines von 1000)

  • Typisches Netz 2012 Alex Net 60’000’000 Parameter

Beispiel: Fully Connected NN

  • Architektur: “fully connected neural network”

    • Input X 3 Zahlen Wetter heute (1,0,0)

    • Output 3 Zahlen Wetter morgen (Wahrscheinlichkeiten)

  • Typisches Netz Fully Connected NN

Beispiel: GaussNet (Lineare Regression)

  • Architektur Lineare Regresion

    • Input X Zahl (X=alter)

    • Output Y Zahl (Y=Blutdruck)

  • Typisches Lineare Regression Gauss (unpublished ~ 1795), Legendre (1805)

Training von NN

Training von NN (Beispiel Bildklassifikation)

Einfache Netzwerke (im Detail)

NN 1: Vorhersage des Blutdrucks

Trainingsdaten: Blutdruck von 33 Nordamerikanischen Frauen (ersten 10)

    x   y
1  22 131
2  41 139
3  52 128
4  23 128
5  41 171
6  54 105
7  24 116
8  46 137
9  56 145
10 27 106

Aufgabe: Blutdruck für eine 75 jährige Frau (gegeben den Trainingsdaten)?

Data

Idee?

Lineare Regression

Modell mit 2 Parametern \(w,b\), welches für jedes gegebenes Alter (\(x\)) den Blutdruck(\(y\)) vorhersagt:

\[ y = w \cdot x + b \]

Lineare Regression as Neuronales Netz

  • Gewichte der Neuronen:
    • Parameter des Modells (hier 2 Werte)
  • Training:
    • Bestimmen der optimalen Gewichte für Trainingsdaten
  • Vorhersage:
    • Berechnung von \(y\) aus \(x\) (forwardpass)

NN 2 Wetter in Konstanz

NN 2 Wetter in Konstanz

  • Output ist Wahrscheinlichkeit

Grosse Netzwerke

Training großer Netze

  • Lineare regression hat 2 parameter (slider)

  • Grosse Netze haben Mio/Mrd parameter

  • Training Minimierung einer Verlustfunktion auf den Trainingsdaten

    • Frage: Wie gut sagt das Model die Daten vorher (Maximum Likelihood Prinzip)

    • Algorithmus Backpropagation (Rummelhard)

    • Training von großen Netzten große technoligische Herausforderung

Vorhersagen nur so gut wie Trainingsbeispiele!

ChatGTP

Principles of ChatGPT

  • Transformer Architecture / self attention

    • Spezielle Art neuronen zu verbinden: Vaswani et al. (2017)
  • “trained with maximum likelihood”

    • “Normales Training”
  • Generative Language Model […] predict next token in a sequence of tokens

    • Sagt nächstes Wort vorraus

Generating Text (You)

Wahrscheinlichkeiten (des Sprachmodels) für das nächste Wort

  • trinken (70%)

  • bieremoji (15%)

  • oder (10%)

  • sonstige kummuliert (5%)

Generating Text (ChatGPT)

  • Steps 1: Describe your technology in one sentence. -> I

  • Steps 2: Describe your technology in one sentence. I -> am

  • Steps 3: Describe your technology in one sentence. I am -> a

  • Steps 4: Describe your technology in one sentence. I am a -> generative

  • Step 36 Describe your technology in one sentence. I am a … new text. -> <END>

Beim Text wird das nächste Wort proportional zur Wahrscheinlichkeit ausgewürfelt.

Zufälliges Auswählen: Beispiel 1

Zufälliges Auswählen: Beispiel 2

Training von ChatGPT

  1. Vorhersage des nächsten Worts

    • Muss keine Daten labeln

    • Trainingsdaten “Internet” (common crawl)

    • CO2 äquivalent 120 Auto für ein Jahr

  2. Finetuning als Chatbot

Zwischen Fazit

  • Deep Learning NN Modelle sind parametrische Modelle
  • Einfachstes Beispiel lineare Regression

  • Die Parameter werden an Trainingsdaten gefittet

Oder prägnanter…

Der Kaiser ist nackt

<<All the impressive achievements of deep learning amount to just curve fitting>>

Juda Pearl, 2018

Transparenz

Transparenz / Interpretation (Im nachhinein)

  • Einfach Modelle, wie lineare Regression können interpretiert werden.

  • Wichtigkeit von bestimmten Eingangsdaten für die Entscheidungen.1

Transparenz / Interpretation (Im nachhinein)

  • Komplexe Modelle oft in den Vorhersagen besser.

  • Kombination von einfachen interpretierbaren mit komplexen Modellen1

    • Beispiel Vorhersage von Hautkrebs

      • Bild Daten mit tiefen NN

      • Alter mit linearer Regression

Grundproblem Keine Kausalität

Statistische Natur von KI

Fazit

KI ist ein hilfreiches Werkzeug

  • Code für Aniationen wurde mit ChatGPT entwickelt

  • Viele Nüzliche Anwendungen Medizin, Stromvorhersage,…

Allerdings

  • Auch wenn es schwerfällt zu glauben: kein inneres Verständniss1
  • Biased
    • Nur so gut wie Trainingsdaten

    • Schwer (bis unmöglich) bias rauszubekommen

  • Transparent
    • Miximal im statistischen Sinne

Backup

Weitere Probleme

  • Overconfidence

  • Nicht robust

  • Nicht kausal

Overconfident

Overconfident

Overconfident

Deep Learning für Tumor Erkennung

DL so gut wie PathologInnen …

Zusammenfassungen

Backup

Bias

  • Daten bassieren auf 33 nordamerikanischen Frauen
  • Nicht übertragbar auf Männer / Assiaten

Bias in Sprachmodellen

Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. 1986. “Learning Representations by Back-Propagating Errors.” Nature 323 (6088): 533–36. https://doi.org/10.1038/323533a0.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv. https://doi.org/10.48550/arXiv.1706.03762.